English-Estonian and Estonian-English parallel corpus

提供者:朱述承
下载地址:http://www.cl.ut.ee/korpused/paralleel/

内容

这个语料库包含:
爱沙尼亚法律及其英文翻译,392个文件。
翻译成爱沙尼亚语的欧盟立法,2981 + 1093个文件。
文件名称反映源文件名称。

语料来源

语料来源于2002年4月30日爱沙尼亚法律语言中心(www.legaltext.ee)。对齐版本基于同一文件的TEI P3兼容版本。

标注

文本已经被句子对齐。列表项被视为等同于句子。爱沙尼亚语和英语句子可能会以1-1,1-2或2-1排列。在这个语料库中没有其他路线(如1-0,0-1,2-2等)。他们或者没有找到,或者被搁置在一旁,因为他们在未来的工作中很难使用,其目的是找到并行的多字单位。
标签和</ eesti>界定了爱沙尼亚语的部分; <英语>和</英语>分隔英文部分。翻译单元每隔一行分开一行,从第一行的原始(源)开始。
下标和上标用标记。通常情况下,原始或翻译单元包含其中之一,但相应的并行单元不包含其中之一。

大小

爱沙尼亚语 - 英语平行文本

在392个文件中有153,500个并行单位(句子或列表项)。爱沙尼亚语有170万tokens,英语有290万tokens。

英文 - 爱沙尼亚语平行文本

根据源文本的原始划分,英文 - 爱沙尼亚文平行文本分为两组:在2981 + 1093个文件中,224,323 + 57,836个并行单位(句子或列表项)。爱沙尼亚语2.6 + 0.7百万tokens,英语3.9 + 1.0百万tokens。